從表面上看,提供網絡托管服務似乎是一項相當簡單的工作。托管服務提供商擁有一組服務器(本質上是非常強大的計算機),它租給在其上存儲網站的網站所有者。服務器永遠不會關閉,網站可以 24/7 訪問。從那時起,托管服務提供商所要做的就是支付電費并確保其托管的網站不違反規則。
當然,還有很多事情要做。服務器必須為托管在其上的網站提供穩定且安全的環境。它需要以一種能夠確保所有應用程序運行良好并且不會以任何方式受到抑制的方式進行配置和維護。這是一個巨大的挑戰,需要仔細的計劃、協調和大量的專業知識。
如果服務器要正常運行,需要檢查的不同指標的數量實際上是無窮無盡的,托管服務提供商必須確保如果服務器的健康受到威脅,其技術專家團隊會知道這一點立即做出反應,并在為時已晚之前做出反應。今天,我們將介紹服務器管理員經常監控的一些最關鍵的方面,以確保提供可靠的服務。
正常運行時間
這是客戶最感興趣的。在線開展業務的主要優勢之一是與實體辦公室或商店不同,該網站全天候 24/7 可用。托管服務提供商的工作是確保盡可能多地訪問服務器。
這并不像讓所有東西都插上電源那么容易。一個由硬件和軟件組成的極其復雜的生態系統對于您的網站托管環境的存在至關重要,而且不可避免地,事情時不時會出錯。不過,將中斷保持在最低限度是必不可少的。
為確保他們能夠及時采取適當的措施,服務器管理員密切關注服務中斷的時間,理想情況下,仔細消除每次中斷的原因,以最大限度地降低未來服務的風險中斷。一般來說,低于 99%的正常運行時間百分比被認為是應該研究的,如果它低于 95%,那么肯定有理由擔心。
并發用戶數和每秒請求數 (RPS)
對于許多人來說,檢查網站運行情況的最佳方法是確定它可以同時支持多少用戶。事實上,訪問者的數量是衡量網站受歡迎程度的最終標準 ,在評估項目需求時應該發揮關鍵作用。
在壓力測試期間,管理員會模擬 大量同時進行的會話,以便粗略估計服務器一次可以處理多少訪問者。應該密切關注用戶數量的統計數據,因為如果一個網站變得太受歡迎,它可能會影響性能甚至 導致整個服務器停機。
但是,并發用戶的數量與服務器上的負載沒有直接關系。例如,點擊大量鏈接并在每個頁面上花費不超過幾秒鐘的用戶將比閱讀冗長文章但同時不與網站交互的用戶對服務器造成更大的壓力。
用戶的每一次點擊都會產生多個不同的請求,這些請求需要由服務器處理。如果該網站很受歡迎,我們每秒可能會討論數千個請求。這是服務器必須能夠處理的實際負載。
太多的同時請求可能會減慢它的性能并完全降低它的性能,這就是為什么服務器管理員必須弄清楚每秒的最大請求數是多少,然后他們必須密切監控這個指標,以確保如果真正-世界負載接近它,他們可以采取適當的行動。
錯誤率
服務器上的負載越大,用戶收到錯誤消息的機會就越大。處理請求的偶爾失敗并不是真正令人擔憂的主要原因,但仍然應密切監視服務器生成的錯誤數量。
更具體地說,管理員應該根據請求的總數來查看它。越來越多的錯誤可能意味著一個嚴重的問題,應該徹底調查其原因。服務器錯誤會生成 5XX 代碼,并且有一些機制可以在記錄到更多錯誤時提醒管理員。
線程數
用戶看到的錯誤百分比可能與服務器在任何給定時間需要處理的線程數直接相關。在配置階段,管理員通常會限制每個進程可以生成的線程數,如果超過該限制,請求可能會被擱置。如果他們保持太久,他們最終會超時,并且用戶將收到一條錯誤消息。
密切關注活動線程的數量是評估在任何給定時間使用了多少服務器容量的重要部分,它可以說明當前托管在其上的項目的需求。這可以幫助管理員確定他們需要對硬件或軟件配置進行哪些更改以優化性能。
系統級性能指標——CPU 和內存利用率以及磁盤使用率
我們不能忘記,服務器本質上是一臺大型計算機。它有一個操作系統,進程在其上運行并利用底層硬件。監控有多少資源在使用中應該始終是系統管理員的優先級列表。高 CPU 或 RAM 使用率會顯著降低網站速度,如果服務器存儲空間不足,它將無法記錄新信息,這可能會阻礙某些任務并給最終用戶帶來很多挫敗感。
大多數托管服務提供商都會為您提供易于使用的工具,幫助您密切監控這些指標。盡可能多地利用它們至關重要,因為它們可以為您提供對于減少停機時間和限制可能尚未對所有人可見的問題的影響至關重要的信息。例如,處理器和 RAM上的負載增加可能意味著服務器上托管的項目之一占用了太多資源,但這也可能表明硬件組件本身存在潛在問題。
平均響應時間 (ART) 和峰值響應時間 (PRT)
您可能會爭辯說,從用戶的角度來看,這些是所有指標中最重要的指標。每當您訪問網站時,您都會發送請求,服務器必須響應這些請求。發送請求和響應所花費的時間是網站的實際加載時間。與網站的每次交互都會產生多個請求(針對 HTML 文檔、CSS 表、圖像、JavaScript 文件等)。有些請求的處理時間比其他請求長,當他們測試服務器時,管理員尋找的主要數據點之一是平均響應時間 (ART)。
它的計算方法是將響應所有請求所需的時間除以請求數。這是服務器在負載下執行情況的一個很好的指標,如果它太高,則可能意味著存在問題。不過,體面的 ART 并不一定意味著一切都很好。管理員在測試服務器性能時還會記錄峰值響應時間 (PRT) ,以找出處理時間較長的請求。這樣,他們可以更輕松地識別潛在問題。
例如,假設您有一臺看似運行良好的服務器,在每秒被數百個請求轟炸后,顯示出相對較低的 ART。然而,仔細查看統計數據可能會發現一些數據庫查詢需要更長的時間,因此會產生較高的 PRT。即使整體性能良好,高 PRT 也可能表明存在問題,應該進行調查。
安全相關指標
客戶往往更關注正常運行時間和速度,他們經常忘記,如今與運行網站相關的最大挑戰之一是保護網站免受黑客攻擊。服務器管理員不應該犯同樣的錯誤。為獲得最佳性能和正常運行時間而 優化網站和服務器的所有工作都可能被分布式拒絕服務 (DDoS)攻擊所破壞。服務器所有者必須制定措施和嚴格的協議,以便在任何潛在攻擊造成重大停機之前有效緩解它們。
可悲的是,DDoS 遠非唯一的安全問題。數十個進程在生產服務器上同時運行,這通常意味著檢測惡意活動可能很困難。除了確保已應用所有安全補丁外,服務器管理員還必須有適當的機制來跟蹤和記錄與文件修改和配置更改相關的活動。預防和早期發現對于確保人們的網站安全至關重要。
其他指標
你會認為檢查我們已經提到的所有指標可以保證完美的性能,但你錯了。有時,問題并非源于物理機或其配置。過時或有問題的應用程序、主題和插件也會極大地降低網站速度,并且有可用的工具可以有效地查明問題。應用程序性能監控是維護服務器和托管在其上的網站正常工作的主要部分。
很可能,在服務器上安裝和運行的應用程序使用某種SQL 數據庫。優化應用程序和數據庫之間的連接不僅可以顯著提高網站的性能,還可以降低 CPU 使用率并降低服務器的整體負載。Web 服務器的情況幾乎相同。無論您使用的是 Apache 還是它的競爭對手之一,確保負責處理和響應所有請求的軟件及其所有組件都經過優化和順利運行是很重要的。
最后需要
如您所見,創建一個穩定的托管環境比設置服務器并確保沒有人關閉它要困難得多。這是一個極其復雜的連續過程。技術一直在發展,隨之而來的是網站所有者的需求也在發生變化。掌握行業的所有變化和動向是托管公司面臨的最大挑戰之一。